The ability to effectively reuse prior knowledge is a key requirement when building general and flexible Reinforcement Learning (RL) agents. Skill reuse is one of the most common approaches, but current methods have considerable limitations.For example, fine-tuning an existing policy frequently fails, as the policy can degrade rapidly early in training. In a similar vein, distillation of expert behavior can lead to poor results when given sub-optimal experts. We compare several common approaches for skill transfer on multiple domains including changes in task and system dynamics. We identify how existing methods can fail and introduce an alternative approach to mitigate these problems. Our approach learns to sequence existing temporally-extended skills for exploration but learns the final policy directly from the raw experience. This conceptual split enables rapid adaptation and thus efficient data collection but without constraining the final solution.It significantly outperforms many classical methods across a suite of evaluation tasks and we use a broad set of ablations to highlight the importance of differentc omponents of our method.
translated by 谷歌翻译
从过去的经验中发现有用的行为并将其转移到新任务的能力被认为是自然体现智力的核心组成部分。受神经科学的启发,发现在瓶颈状态下切换的行为一直被人们追求,以引起整个任务的最小描述长度的计划。先前的方法仅支持在线,政策,瓶颈状态发现,限制样本效率或离散的状态行动域,从而限制适用性。为了解决这个问题,我们介绍了基于模型的离线选项(MO2),这是一个脱机后视框架,支持在连续的状态行动空间上发现样品效率高效瓶颈选项。一旦脱机而在源域上学习了瓶颈选项,它们就会在线转移,以改善转移域的探索和价值估计。我们的实验表明,在复杂的长途连续控制任务上,具有稀疏,延迟的奖励,MO2的属性至关重要,并且导致性能超过最近的选项学习方法。其他消融进一步证明了对期权可预测性和信用分配的影响。
translated by 谷歌翻译
对于在现实世界中运营的机器人来说,期望学习可以有效地转移和适应许多任务和场景的可重复使用的行为。我们提出了一种使用分层混合潜变量模型来从数据中学习抽象运动技能的方法。与现有工作相比,我们的方法利用了离散和连续潜在变量的三级层次结构,以捕获一组高级行为,同时允许如何执行它们的差异。我们在操纵域中展示该方法可以有效地将离线数据脱落到不同的可执行行为,同时保留连续潜变量模型的灵活性。由此产生的技能可以在新的任务,看不见的对象和州内转移和微调到基于视觉的策略,与现有的技能和仿制的方法相比,产生更好的样本效率和渐近性能。我们进一步分析了技能最有益的方式以及何时:他们鼓励定向探索来涵盖与任务相关的国家空间的大区域,使其在挑战稀疏奖励环境中最有效。
translated by 谷歌翻译
布料的机器人操作的应用包括织物制造业到处理毯子和洗衣。布料操作对于机器人而言是挑战,这主要是由于它们的高度自由度,复杂的动力学和折叠或皱巴巴配置时的严重自我闭合。机器人操作的先前工作主要依赖于视觉传感器,这可能会对细粒度的操纵任务构成挑战,例如从一堆布上抓住所需数量的布料层。在本文中,我们建议将触觉传感用于布操作;我们将触觉传感器(Resin)连接到弗兰卡机器人的两个指尖之一,并训练分类器,以确定机器人是否正在抓住特定数量的布料层。在测试时间实验中,机器人使用此分类器作为其政策的一部分,使用触觉反馈来掌握一两个布层,以确定合适的握把。实验结果超过180次物理试验表明,与使用图像分类器的方法相比,所提出的方法优于不使用触觉反馈并具有更好地看不见布的基准。代码,数据和视频可在https://sites.google.com/view/reskin-cloth上找到。
translated by 谷歌翻译
权重规范$ \ | w \ | $和保证金$ \ gamma $通过归一化的保证金$ \ gamma/\ | w \ | $参与学习理论。由于标准神经净优化器不能控制归一化的边缘,因此很难测试该数量是否与概括有关。本文设计了一系列实验研究,这些研究明确控制了归一化的边缘,从而解决了两个核心问题。首先:归一化的边缘是否总是对概括产生因果影响?本文发现,在归一化的边缘似乎与概括没有关系的情况下,可以与Bartlett等人的理论背道而驰。(2017)。第二:标准化边缘是否对概括有因果影响?该论文发现是的 - 在标准培训设置中,测试性能紧密跟踪了标准化的边距。该论文将高斯流程模型表示为这种行为的有前途的解释。
translated by 谷歌翻译
本文提出了一种基于答案设置编程(ASP)的方法,用于代表自然语言文本生成的知识。文本中的知识是使用Neo Davidsonian的形式主义建模的,然后将其表示为答案集计划。相关的致辞知识另外导入Wordnet等资源,并在ASP中表示。然后可以使用所产生的知识库来在ASP系统的帮助下执行推理。这种方法可以促进许多自然语言任务,如自动问题应答,文本摘要和自动化问题。基于ASP的技术表示,例如默认推理,分层知识组织,默认值等的首选项,用于模拟完成这些任务所需的致辞推理方法。在本文中,我们描述了我们开发的CaspR系统,以自动解决在给出英语文本时回答自然语言问题的任务。 CASPR可以被视为一个系统,通过“了解”文本并已在队列数据集上进行了测试,具有有希望的结果。
translated by 谷歌翻译